ARABASE : base de données Web pour l'exploitation en reconnaissance optique de l'écriture arabe
نویسندگان
چکیده
Nous proposons dans ce travail ARABASE une base de données d’images d’échantillons d’écriture arabe pour l’exploitation en reconnaissance optique de l’écriture (OCR-Optical Character Recognition). Cette base est implémentée sur un réseau à longue distance. L’étude des particularités morphologiques de l’écriture arabe, dans sa forme imprimée et manuscrite (en ligne et hors ligne), et les différents problèmes liés à l’OCR arabe, nous ont conduit aux choix retenus au niveau de notre base de données. Le contexte de ARABASE est diversifié (montant littéraux, noms de villes, texte libres, ligatures, nombres, signatures...), il correspond aux différents modes d’écritures : imprimé et manuscrit (hors ligne et en ligne). Pour chacune des classes du contexte correspondent des sous classes associées aux mots, pseudo-mots et aux caractères qui composent l’entité considérée. Des informations relatives à l’origine du document source et aux différents modes d’acquisition des données sont également disponibles dans ARABASE. Un document est produit par un périphérique d’entrée (un scanner, une tablette graphique, une imprimante...). Dans le cas du manuscrit, nous considérons un contexte multi-scripteurs (Essoukri Ben Amara, 2005). L’ensemble des informations de ARABASE est organisé dans le diagramme de classe statique selon la méthode orientée objet UMLUnified Modelling Language (Roques, 2002), la figure 1 donne un extrait de ce diagramme. Plusieurs fonctionnalités sont offertes par cette application, nous citons en particulier : La consultation des différentes entités du contexte et des informations relatives aux outils d’acquisition. Les recherches selon des critères spécifiés par l’utilisateur, qui peut être administrateur ou client. La possibilité d’effectuer diverses statistiques relatives aux différents types d’informations En plus de ces fonctionnalités classiques, ARABASE offre la possibilité d’enrichir le contexte de la base de données par l’ajout d’une nouvelle classe au modèle conceptuel, c'està-dire l’ajout de nouveaux vocabulaires au contexte de la base. L’application est réalisée sous l’environnement SQL ServerMicrosoft Structured Query Language Server (Spenik et Sledge, 2001) ce qui assure la sécurité des données.
منابع مشابه
Exploitation de l'échelle d'écriture pour améliorer la reconnaissance automatique des textes manuscrits arabe
RÉSUMÉ. Les documents manuscrits arabes présentent des défis spécifiques pour la reconnaissance du fait de la nature de l'écriture cursive et d'autres facteurs, comme la taille de l'écriture. Une des plus grandes bases étiquetées des documents manuscrits arabes, la base de données NISTOpenHaRT inclut de grandes variabilités dans la taille du texte inter et intra mots et lignes. Nous proposons ...
متن کاملSystème Neuro-Markovien pour la Reconnaissance de l'Écriture Manuscrite Arabe à Vocabulaire Limité
Résumé. Nous proposons une manière de coopérer des MMC et des réseaux neuronaux dans une architecture probabiliste en tirant avantage des deux outils : la génération d’une liste des N meilleures hypothèses de mots ainsi que leurs segmentations en caractères par un classifieur MMC et les propriétés de modélisation des réseaux neuronaux appliquées aux caractères. Le classifieur RN utilise la segm...
متن کاملLa Théorie de la Résonance Adaptative et les Moments de Zernike pour la Reconnaissance de Mots Arabes Manuscrits
Résumé. La reconnaissance de l'écriture arabe manuscrite est un domaine de recherche relativement récent et qui a connu ces dernières années des progrès remarquables. Il présente un intérêt indéniable dans l’accomplissement de tâches considérées fastidieuses dans certains domaines comme le tri postal, la lecture de chèques bancaires, la lecture des bordereaux, etc. Ce papier présente la concept...
متن کاملSemantic Web technologies for Lexical Linked Data management (Technologies du Web Sémantique pour l'exploitation de données lexicales en réseau (Lexical Linked Data)) [in French]
متن کامل
Processus de traitement de données radar pour la reconnaissance/identification de cibles aériennes
Dans ce papier, nous proposons un processus de traitement permettant l’extraction des connaissances à partir d’un volume important de données pour l’aide à la décision dans un contexte opérationnel de la reconnaissance/identification de cibles radar non-coopératives. Les premiers travaux ont donc consistés à adapter le processus ECD (FIG.1) dans le domaine radar en tenant compte de la nature de...
متن کامل